Un historique
Detection et analyse des variants par NGS
Applications et analyse du transcriptome par NGS
Analyse fonctionnelle
Quelques banques publiques utiles
- Génomes, annotations, ontologies
05 novembre 2024
Ghislain Bidaut
IR, Responsable de la plateforme de Bioinformatique Intégrative Cibi au Centre de Recherche en Cancérologie de Marseille à l’Institut Paoli-Calmettes.
Contact ghislain.bidaut@inserm.fr
CRCM: 20 Equipes, 18 Plateformes scientifiques (Core-Tech)
Plateforme Bioinformatique CiBi: 4 IR 3 IE: Soin & Recherche
La bio-informatique est constituée par l’ensemble des concepts et des techniques nécessaires à l’interprétation informatique de l’information biologique. Plusieurs champs d’application ou sous-disciplines de la bio-informatique se sont constitués (Wikipedia):
Le séquençage par Shotgun ou Sanger: (Faible Débit): C’est la méthode mise au point par Sanger pour le séquençage de génomes de virus et popularisée ensuite par Craig Venter pour le séquençage initial du génome humain.
Le séquençage de nouvelle génération (Next-Generation Sequencing-NGS): (Haut Débit) Le NGS désigne l’ensemble des méthodes apparues en 2005 pour la production de millions de séquences (Le pyroséquençage, qui a donné le séquenceur Roche 454).
Ressources nécessaires pour le séquençage d’un génome humain:
Aujourd’hui, le séquençage est utilisé en routine pour la gestion des patients atteint de cancer.
La diminution des coûts de séquencage et l’évolution de la technologie a permis de couvrir des régions génomiques plus grande et donc de tester des panels plus élaborés.
La tendance actuelle en diagnostique est l’utiisation de panels, considérés actuellement plus fiables (profondeur de séquençage supérieure) et plus efficaces en termes de coûts.
Le challenge futur consistera à la mise au point de nouveaux outils bio-informatiques pour assister les biologistes dans l’analyse de variants.
Applications à visée diagnostique pour la clinique: analyse de panels de gènes pour l’étude de mutations constitutionnelles et tumorales.
Recherche de mutations à visée de recherche: Analyse de panels larges ou d’exomes (complet) à visée de découverte.
Un grand nombre de patients peuvent être analysés simultanément et rapidement.
L’analyse bioinformatique consiste à aligner les séquences sur le génome de référence et à quantifier les changements par rapport à ce génome (variants) par l’applications de méthodes statistiques.
L’analyse biologique consiste ensuite à évaluer la pathogénicité de ces variants à l’aide de connaissances biologiques préalables (Bases de données).
SNP: Single Nucleotide Polymorphisms: Changement d’un simple nucléotide
InDEL: Insertion-DELetion: Insertion ou délétion d’une séquence jusqu’à 50 nucléoïdes.
CNV: Copy Number variation: Variant Structurel de plus de 1kB (Autre algorithme de détection)
Définition : Un SNP est une variation de simple nucléotide dans une séquence d’ADN. Cela signifie qu’un seul nucléotide (A, T, C ou G) est remplacé par un autre.
Fréquence : Les SNPs sont très courants dans le génome humain et représentent la variation génétique la plus répandue.
Exemple : Si dans une séquence d’ADN on a un “A” à un endroit donné chez une personne, un autre individu peut avoir un “G” à ce même endroit.
Effet : Les SNPs peuvent être neutres (n’ayant aucun effet), ou bien influencer l’expression des gènes, la fonction des protéines, ou la susceptibilité aux maladies. Certains SNPs sont également utilisés comme marqueurs génétiques pour étudier l’héritabilité de traits et de maladies.
Définition : Un InDEL est une variation où une ou plusieurs paires de bases d’ADN sont soit insérées (ajoutées) soit supprimées (délétion) dans une séquence d’ADN. Les InDELs peuvent être de petite taille (1-50 paires de bases) ou plus grandes.
Exemple : Si une séquence originale est ATGCGT, une insertion pourrait donner ATGCCGT, et une délétion pourrait donner ATGT.
Effet : Les InDELs peuvent provoquer un décalage du cadre de lecture (frameshift), surtout dans les gènes codants, ce qui peut aboutir à des protéines non fonctionnelles. Cela peut être lié à des maladies génétiques ou des traits spécifiques.
Définition : Un CNV est une variation où des grandes portions de l’ADN (plus de 1 kb) sont présentes en copies supplémentaires ou manquantes par rapport au génome de référence. Cela implique une duplication ou une délétion de segments d’ADN, souvent beaucoup plus grands que les Indels.
Exemple : Une personne peut avoir trois copies d’une région spécifique d’un chromosome, alors que la plupart des gens en ont deux (une copie de chaque parent).
Effet : Les CNVs peuvent affecter plusieurs gènes et ont un impact majeur sur l’expression des gènes, car ils augmentent ou diminuent la quantité d’ADN codant disponible. Ils sont associés à divers troubles génétiques, comme le syndrome de Down (duplication d’un segment sur le chromosome 21), et à d’autres traits et maladies complexes.
Détection: ils sont détectes par des algorithmes plus complexes que les SNPs et InDELs.
But: recherche de mutations dans des gènes d’interêt pour poser un diagnostique sur un patient.
Etapes de l’analyse bioinformatique:
Une fois les SNP et INDELS obtenus, il est nécessaire de les interpréter pour générer un rapport d’analyse.
Pour cela, nous utilisons un annotateur de variants. Ce type de programme permet de faire des annotations au niveau des gènes et donc de retrouver les gènes à partir des bases de données RefSeq, Ensembl, etc…
Il en existe des libres (Annovar, SnpEff) et des commerciaux (Alamut)
Les principales bases de données que l’on peut utiliser pour l’annotation sont:
La base de données Genome Aggregation Database est une base développée à l’intention de la communauté scientifique et médicale pour l’annotation de séquences humaines.
Elle contient les fréquences alléliques de variants strucuraux dans différentes populations pour plus de 76000 génomes (pour hg38) et 10000 génomes (pour hg37) ayant été séquencés dans le cadre d’analyses de maladies rares et de cancers.
Référence: Karczewski, K.J., Francioli, L.C., Tiao, G. et al. The mutational constraint spectrum quantified from variation in 141,456 humans. Nature 581, 434–443 (2020). https://doi.org/10.1038/s41586-020-2308-7
C’est un catalogue de variations génétiques communes (existantes dans au moins 1% de la population) obtenues à partir de donneurs sains, constituant une ressource de référence utilisée par la communauté biomédicale.
Ce catalogue est accessible à travers l’International Genome Sample Ressource.
Il est continuellement maintenu et mis à jour avec les dernières versions du génome humain et des données provenant de nouvelles populations.
A ce jour, il contient des variants pour 2504 individus obtenus dans 26 populations.
Il n’y a aucune donnée phénotypique ou médicales associée.
Référence: A global reference for human genetic variation, The 1000 Genomes Project Consortium, Nature 526, 68-74 (01 October 2015) doi:10.1038/nature15393.
URL: https://cancer.sanger.ac.uk/cosmic Cette base constitue une ressource pour l’exploration de l’impact des mutations somatiques dans les cancers.
Il contient des données traitées manuellement associées à des panels de gènes ciblés. Elles sont disponibles sur les versions hg37 et hg38 du génome humain.
Les données consistent en un catalogue de mutations liées à 1.4 millions de tumeurs obtenues à partir de 26000 publications. Les données sont associées à des meta-données (facteurs environnementaux et historique des patients).
Référence: COSMIC: the Catalogue Of Somatic Mutations In Cancer. John G Tate et al. Nucleic Acids Research, Volume 47, Issue D1, 08 January 2019, Pages D941–D947, https://doi.org/10.1093/nar/gky1015
Pour le diagnostique: Le compte-rendu est UNIQUEMENT fait sur les gènes prescrits.
L’utilisation du NGS en oncologie permet d’augmenter le débit d’analyse.
L’analyse bioinformatique fait partie intégrante du processus global de détection des variants.
A terme: disparition du séquençage ciblé type Sanger. Celui-ci est actuellement encore utilisé pour la confirmation des résultats.
Perspectives: vers la plateforme France Médecine Génomique 2025
Voir le projet des 100,000 génomes du NHS.
Utilisation de l’IA pour assister les biologistes dans l’annotation des variants.
Analyse de l’expression des gènes = le Transcriptome. C’est une grandeur dynamique.
Technologie à haut débit précédente: les puces à ADN. Technologie basée sur le NGS: Le RNA-seq
Le NGS appliqué à l’analyse du transcriptome permet:
Mais…: Complexité et coût calculatoire accrus = pipeline bioinformatique plus complexe par rapport aux microarrays.
Application à la comparaison du transcriptome traité/Non traité dans des cellules humaines.
Exemple de la découverte des sous types moléculaires dans le cancer du sein (Sørlie, Perou et al, PNAS 2001).
L’objectif est d’établir quels sont les gènes différentiellement exprimés entre plusieurs conditions expérimentales, par exemple, un contrôle et un traitement. C’est une analyse supervisée.
Pour cela, un test statistique est utilisé. Rappel: un test statistique est la vérification d’une hypothèse nulle H0.
EdgeR est un programme qui effectue un test statistique sur les comptages bruts pour identifier les gènes différentiellement exprimés.
Il n’a pas besoin de normalisation des données en amont, son modèle statistique gère les différences ente échantillons non imputables aux différentiels d’expression.
On peut normaliser les données à part pour générer une matrice de comptage à des fins de visualisation (heatmaps).
Objectif: Recherche de gènes de fusion, c’est à dire de nouveaux gènes produits de fusion obtenus par délétion et réarrangement du transcriptome.
Exemple le plus connu: Le gène BCR-ABL. C’est le produit d’une translocation entre le chromosome 22 (gène ABL) et 9 (gène BCR), appelée Chromosome de Philadelphie, est un marqueur de Leucémie Myéloïde Chronique.
Ce chromosome est une aberration qui n’est pas héritée et qui n’est pas transmissible à sa descendance.
Après avoir identifié une liste de gènes d’interêt (par exemple après une analyse différentielle), nous cherchons à obtenir la fonction biologique des gènes présents dans cette liste.
Deux manières de procéder:
Parcourir la liste “à la main” et faire une recherche dans la littérature pour chaque gène… long et fastidieux!
Utiliser les annotations des gènes pour décrouvrir les fonctions moléculaires ou pathways représentés par ces gènes: -> Faire une Analyse d’enrichissement fonctionnelle. On peut ensuite retourner vers la littérature.
Elles sont basées sur deux composantes:
Une ontologie est l’ensemble structuré des termes et concepts représentant le sens d’un champ d’informations, que ce soit par les métadonnées d’un espace de noms, ou les éléments d’un domaine de connaissances.
Application au génome: Gene Ontology (Gene Ontology Consortiumhttp://www.amigo.org). 3 ontologies ont été définies.
Gène TP53
Annotations par un vocabulaire contrôlé.
Une catégorie C de gènes regroupe n gènes sur le total de N présents dans le génome. La fréquence de départ de cette catégorie est \(F = n/N\).
Nous avons ensuite obtenu un cluster de \(k\) gènes significativement exprimés ou sous-exprimés, dont p appartiennent à la catégorie C.
la fréquence de la catégorie C dans ces gènes est \(f = k/p\).
L’enrichissement Fonctionnel de la catégorie C est défini comme \(e(C)=f/F\).
Le test d’enrichissement doit répondre à la question: L’enrichissement est-il statistiquement significatif par rapport à un tirage au hasard? Une pratique courante est de le faire par l’application d’un Test hypergéométrique.
Il s’agit de Dépôts de données liées à des publications répondant à des standards minimum de conservation et de reproductibilité de l’information, et contenant des données brutes de puces à ADN et de NGS.
L’information stockée permet la reproductibilité de l’expérience Leur usage est exigé pour publication (Numéro d’accession).
NCBI Gene Expression Omnibus http://www.ncbi.nlm.nih.gov/geo/
EBI ArrayExpress http://www.ebi.ac.uk/arrayexpress/
Dépôts spécialisés:
Téléchargement de génomes de références (souris, humain et autres): UCSC http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/hg19.2bit
Téléchargement d’annotations sous format GFF (pour IGV): GENCODE https://www.gencodegenes.org/human/
PubMed:
http://www.ncbi.nlm.nih.gov/pubmed
En analyse NGS, la bioinformatique et l’infrastructure bioinformatique ne sont que peu ou pas importantes face au séquençage lui-même: (Vrai/Faux)
Remettre dans l’ordre les phases d’analyse de variants suivantes:
Faire correspondre les logiciels suivants à ces différentes étapes:

Ce(tte) œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution - Pas d'Utilisation Commerciale - Pas de Modification 4.0 International.